MODELOS DE LA RECUPERACIÓN DE LA INTERNET
(CRHISTIAM A)


Los documentos tradicionales y los sistemas de recuperación de información estructurada


La expansión de la literatura científica y técnica del periodo de la inmediata postguerra y la guerra fría, tanto en términos meramente cuantitativos como en lo tocante a la aparición de nuevas disciplinas, subdisciplinas y especialidades, vino a coincidir con los primeros intentos de aplicar los computadores a tareas distintas del cálculo numérico. Al mismo tiempo, puso en evidencia las limitaciones de los grandes esquemas clasificatorios generalistas y abrió el campo para la investigación de sistemas postcoordinados de representación y recuperación de documentos. A este panorama vino a sumarse la necesidad de difusión y coordinación de servicios de las grandes instalaciones bibliotecarias.

Considerados globalmente, el conjunto de distribuidores y bases de datos accesibles online, sucesores directos del esquema esbozado, han dominado durante casi 30 años la recuperación de documentos en campos aparentemente tan dispares como la información científica y técnica, la documentación legislativa y jurídica y la información de actualidad. Una serie de características son comunes a los referidos servicios, a pesar de su contenido heterogéneo, y también delatan algunas de sus limitaciones.

Los sistemas mencionados han trabajado inicialmente con representaciones estructuradas de documentos impresos. Sólo el aumento en la capacidad de los dispositivos de almacenamiento permitió la distribución de bases de datos a texto completo, especialmente en los ámbitos legislativo y jurídico y en los de información de actualidad. Por lo que respecta al sector de la información científica y técnica, sigue estando constituído mayoritariamente por bases de datos referenciales o servicios de resúmenes. Diversas agencias se ocupan del acceso efectivo al documento original o su reproducción.

Los documentos representados en las bases de datos son, en su inmensa mayoría, de tipo textual. Sólo poco a poco productores y distribuidores comienzan poner en marcha dispositivos que permitan la representación, el almacenamiento y la recuperación de los elementos gráficos que contienen.

Todos los documentos son resultado de sucesivos procesos de edición o evaluación previos a su publicación. Uno de los resultados de estos procesos es la gran homogeneidad de los documentos científicos y técnicos, legales y jurídicos y periodísticos en sus respectivos grupos. También sus representaciones presentan un alto grado de homogeneidad. No podía ser menos, puesto que factores de tipo técnico y económico han propiciado el centralismo en la distribución de información, en manos de grandes grupos de comunicación sometidos a un proceso de concentración muy acusado.

A pesar de lo afirmado en los párrafos anteriores, subsiste el esquema que sitúa en fases sucesivas a productores y distribuidores de bases de datos.

Por otra parte, se ha observado tradicionalmente una tendencia hacia la especialización a nivel de la producción de bases de datos documentales. MEDLARS, Psycinfo, Compendex, Lexis, BIOSIS son sólo algunos ejemplos de sistemas dominantes en campos de conocimiento o de información especializados.

Finalmente, todos los sistemas mencionados cuentan con sistemas de recuperación de ajuste exacto (exact matching) apoyados en la lógica booleana. Esta característica, la necesidad de programas cliente y las restantes complejidades de sus lenguajes de consulta se han traducido en la necesidad de intermediarios especializados.

Documentos en Internet y espacios informativos

En su discusión sobre la recuperación de información distribuida, Clifford Lynch tipifica la variada gama de objetos, servicios y flujos de información digitales distribuidos en Internet en dos grupos principales. En primer lugar, distingue los innumerables ficheros almacenados como archivos en muchos servidores, accesibles a través de protocolos como FTP y HTTP y que representan textos, imágenes, audio o vídeo digital o programas ejecutables. Cabría añadir a ellos recursos de un segundo tipo: los grupos de noticias y las listas de discusión, soportados por protocolos de transporte más especializados como NNTP (Network News Transfer Protocol) o IRC (Internet Relay Chat). Las páginas Web y los programas son simples colecciones de bits interpretables como texto ASCII o objetos binarios, al igual que los mensajes de correo, las noticias o las listas. Recientemente, un conjunto de normas de etiquetado (Multipurpose Internet Mail Extensions) ha permitido la transmisión, junto con los mensajes, de objetos digitales. A medida que se desarrolla el lenguaje HTML, también se enriquecen las páginas Web para adoptar la categoría de documentos compuestos.

El segundo grupo de recursos está representado por servicios interactivos accesibles a través de protocolos de emulación de terminal normalizados (Telnet, X Windows) o programas cliente especializados que emplean protocolos propietarios (como los clientes de servicios online). Gracias al empleo de pasarelas o "traductores", es posible incluir en este grupo a los servicios interactivos basados en SQL y a aquellos que emplean la norma Z39.50.

Por último, existen flujos de información efímera, que adoptan la forma de videos, audios, conferencias y otros recursos procedentes de diversas fuentes. Estas fuentes, análogas a emisiones de radio o televisión, se transmiten a través de Mbone (Multicast Backbone). Los usuarios de Internet pueden estar interesados bien en la existencia de flujos de información como un recurso activo y actual o bien en la simple localización de alguna parte específica de ese flujo de información, almacenada en algún archivo histórico relacionado.


  • Los espacios


    Mauldin ha formulado una distribución de contenidos informativos en un espacio global del que Internet es sólo una parte. El espacio Web, representado por la información accesible a través del Protocolo de Transferencia de Hipertexto (HTTP), como el espacio gopher, el que corresponde al protocolo de transferencia de mensajes de correo (SIMP) y el de transferencia de ficheros (FTP) se encontrarían dentro de los llamados servicios propios de Internet. En contraste, el espacio de la información estructurada en bases de datos (SRIe), de las que una parte son accesibles a través de servidores WAIS, sustrae sus contenidos a la Red, por muchas pasarelas que se hayan diseñado para su consulta. Los grupos de discusión o grupos USENET tampoco están totalmente integrados en ese espacio informativo público que representa Internet, en la medida en que muchos de ellos se circunscriben a servicios online o redes privadas restringidos. El concepto de una red distribuida como un espacio informativo, que Lynch considera todavía en desarrollo16, resulta de interés en el sentido en que desplaza el énfasis hacia los contenidos. En efecto, cada uno de los "servicios" accesibles a través de la Red se caracteriza por un tipo determinado de contenido informativo accesible a través del programa de conexión desarrollado al efecto. El hecho de que los actuales programas clientes permitan el acceso a más de un espacio no obsta para considerarlos por separado, en función de los objetos informativos o recursos que contienen.

    El primer elemento de contraste con el entorno de los documentos tradicionales y sus sistemas de acceso se basa en la naturaleza de los documentos. Frente a la abrumadora mayoría de las representaciones estructuradas de documentos textuales en el espacio de las bases de datos, Internet contiene documentos digitales íntegros codificados en una gran variedad de formatos. Los textos en diferentes juegos de caracteres ASCII, los ficheros audibles en formatos MIDI o WAV, las imágenes fijas GIF, JPEG, NEGF, las imágenes en movimiento AVI, MOV, MPEG o Quicktime son sólo algunos de los ejemplos más recurridos. Por lo que respecta a los textos, los formatos PDFy PostScript conviven con documentos preparados con diversos programas de procesamiento de texto.
    external image 5461237753_888ded8baf_t.jpg




    Los documentos


    Los documentos del espacio Web son compuestos, altamente dinámicos, de moderado tamaño, de muy baja estructuración interna y, como es propio de este espacio, altamente interrelacionados. En Noviembre de 1995, Open Text realizó un censo de los documentos Web existentes. Sobre una muestra de 1,524 millones de objetos, se halló que el 50% contienen al menos un enlace a una imagen y el 15% contienen exactamente una imagen. Las páginas que contenían un gran componente gráfico, lo hacían a costa de los típicos "bolarroja.gif" y similares. En España, un reciente análisis de las sedes Web de 8 bibliotecas universitarias y 11 de otras instituciones catalanas reveló una proporción media general de textos e imágenes de 45 a 55%. Por lo que respecta al dinamismo de este espacio, se pueden aportar muchas evidencias de su alta tasa de variabilidad. Así, tras el examen de dos conjuntos de documentos Web recopilados con 1 mes de diferencia (1,3 millones en Octubre y 2,6 millones en Noviembre de 1995), se observó empíricamente que muchos de los más populares URLs del primer conjunto ya no existían en el segundo. En otro trabajo se muestrearon periódicamente 4.600 objetos HTTP distribuidos en 2.000 sedes diferentes durante un periodo de 3 meses. La vida de los objetos fue de 44 días como promedio. Para los objetos textuales el valor fue de 75 días y para las imágenes de 107. Otros documentos persistieron durante 27 días. El 28% de los objetos se actualizó como mínimo cada 10 días y un 1% se actualizó dinámicamente. Según uno de los ingenieros de Infoseek, John Nauman, el 10% de las páginas indizadas en su base de datos ya no existen. Una última evidencia, aunque se podrían aportar muchas más. La búsqueda por los mismos unitérmino y frase (4 palabras) arrojó diferentes resultados en 8 buscadores cuando se realizó en Febrero, Mayo y Noviembre de 1996.Los resultados de la búsqueda del unitérmino se decuplicaron (se multiplicaron por 10) en los pases extremos en Excite, Infoseek Guide, Lycos y WebCrawler. En AltaVista aumentaron de 20.000 a 30.000 y en OpenText de 1.026 a 3.758

external image 6830034227_82206b5e76_t.jpg

volver